查看原文
其他

统计计量丨古老而神秘的因子分析(三)

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强

——接上期推文



主因子解(Principal Factor Solution)

主成分解的缺点之一是,它仅将协方差矩阵  作了近似的分解,即 。得到精确分解的一种方法就是主因子解。假设我们有对于特别方差矩阵  的初始估计值  :

则可对  求主成分解,即为 “主因子解”(principal factor solution)。
也可进行迭代,即针对新的特别方差矩阵  ,再对  求主成分解,以此类推,直至收敛,称为 “迭代主因子解”(iterated principal factor solution)。
在实践中,一般取初始值:

其中, 为样本协方差矩阵  或相关系数矩阵的逆矩阵之第 k 个主对角线元素 (k = 1,...,p)。事实上,如果选择初始值  为零矩阵,且不作迭代,则主因子解就是主成分解。



最大似然解(MLE Solution)

如果假设共同因子  与特别因子  服从联合正态分布(jointly normal),则  也服从正态分布,故可尝试写下似然函数,进行最大似然估计。

但我们依然无法识别参数  与 。为了计算方便,通常加上一个 “独立性条件”(uniqueness condition),即要求矩阵  为对角矩阵,然后进行有约束的最大似然估计,即可得 “最大似然解”(MLE solution)。
由于独立性条件的约束主要为了计算方便而施加,故所得最大似然解一般需要经过适当的旋转,才能得到易于解释的因子载荷矩阵。




因子得分的估计

有时我们也对因子得分(factor score)的估计值感兴趣。对于个体 i,因子模型的方程为:

其中, 为个体 i 的因子得分(比如,每位个体的智力均不同)。一旦得到因子载荷矩阵的估计值  ,则可进行 OLS 估计(将  视为 OLS 回归的数据矩阵 )。由此可得对个体 i 的因子得分之 OLS 估计:

如果  为主成分解,只要代入  的表达式,即可得到如下简单的结果:

 

这意味着,个体 i 的因子得分  正是在  处取值的前 m 个主成分的倍数(the first m scaled principal components evaluated at  )。这也是主成分解之所以称为 “主成分解” 的原因之一。
另外,考虑到  矩阵的主对角线元素并不相等,故存在异方差,也可以使用加权最小二乘法(Weighted Least Squares)来估计因子得分。



主成分分析与因子分析的区别与联系

至此,我们可以简要地总结出主成分分析与因子分析的异同与联系。

共同点:在思想上,二者都着重于 “降维”(dimension reduction)。
不同点:主成分分析并没有假设任何模型(或数据生成过程),它只是一个有约束的最大化问题的唯一解。而因子分析则依赖于所假设的因子模型,其中的因子既不可观测,也无法识别。为了求解因子模型,就必须施加约束;而约束条件不同,则可得到不同的解。
联系:主成分分析是求解因子模型的一种常见方法,而且其解也称为 “主成分解”(尽管所得的因子载荷矩阵其实是主成分系数的倍数)。



因子分析的Stata命令

在 Stata 中进行因子分析,可使用命令 factor,其句型为:

factor y1 y2 … yp, pcf ipf ml


其中,y1 y2 … yp 为 p 个变量的观测数据,选择项 “pcf” 表示主成分解,“ipf” 表示迭代主因子解(iterated principal factor),“ml” 表示最大似然解,默认为主因子解(pf)。
如果使用相关系数矩阵进行因子分析,可使用以下句型:

factormat matname, n(#)


其中,“matname” 为事先定义好的相关系数矩阵(correlation matrix),而必选项 “n(#)” 表示样本容量。
如需对所得因子载荷进行旋转,以便得到更好的解释,可使用命令:

rotate

该命令默认使用 “varimax” 的方法进行因子旋转,即最大化因子载荷之平方的方差(使得因子载荷各系数之间的反差最大)。
如果想得到前两个因子得分,可使用命令:

predict f1 f2


详见 “help factor”,“help rotate” 以及 “help factor postestimation”。



交互固定效应(Interactive Fixed Effects)

因子分析在统计学中已有百余年的历史,为何计量经济学家突然对因子分析感兴趣呢?在很大程度上,这与面板数据的 “交互固定效应” 之兴起有关。作为对常见的双向固定效应(two-way fixed effects)的重要推广,交互固定效应的数学形式正是因子模型。

传统的双向固定效应模型可写为:

其中, 与  分别为 “个体固定效应”(individual fixed effects)与 “时间固定效应”(time fixed effects),可以与解释变量  相关。
双向固定效应模型的一个重要局限性是,个体固定效应  与时间固定效应  都是一维的,而且以加法的形式进入模型。事实上,时间冲击很可能是多维的,记为  。
比如,考虑一个跨国面板数据(cross-country panel),则不同国家面临的共同冲击(common shocks)可能包括技术冲击(technology shocks)、金融冲击(financial shocks)、贸易冲击(trade shocks)等,可记为 :

进一步,这些共同冲击对于不同国家的影响力度一般并不相同(比如,席卷全球的金融海啸对中国的影响比较小)。为此,引入以下模型:

其中, 即为交互固定效应,因为它可视为多维个体效应  与多维时间效应  的乘积(交互项),而且  可以与解释变量  相关(固定效应)。由于  与  均不可观测,使用因子分析的术语,则  为共同因子(factors),而  为因子载荷(factor loadings)。
显然,常见的双向固定效应模型只是交互固定效应模型的特例。因此,交互固定效应是对双向固定效应模型的重要推广,为当前计量经济学的活跃研究前沿之一。
事实上,近来日益流行的 “合成控制法”(synthetic control method, Abadie et al., 2010)与 “回归控制法”(panel data approach for  program evaluation, Hsiao et al., 2012),其背后的理论基础也正是交互固定效应。
不难看出,由于交互固定效应的特殊形式,传统的静态面板估计方法(比如,组内估计量、差分估计量、LSDV法等)一般不能得到一致估计。
关于交互固定效应的估计方法,可大致分为两类。一类方法试图消去交互固定效应 ;比如,Holtz-Eakin, Newey and Rosen (1988),Ahn, Lee and Schmidt (2001) 等。另一类方法则致力于估计出(或控制住) ,比如 Pesaran (2006),Bai (2009)。我们将在今年国庆节的高级计量六天现场班进行深入介绍。








►一周热文

数据呈现丨小白学数据可视化:一个ggplot2画图完整实例

老姚专栏丨均值回复及其对实证研究的启示

数据呈现丨R语言做多变量可视化分析?

统计计量丨工具变量法(二): 弱工具变量

数据呈现丨R语言机器学习中数据可视化的杀手锏

数据资源丨划重点 ! 经济学专业学习Python之爬虫篇

统计计量丨古老而神秘的因子分析(二)








数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存